max rank | avg. rank | sentence |
---|---|---|
109 | 50.0000 | Dia mengatakan hal itu belum akan dilakukan. |
181 | 44.2727 | ’’Namun katanya kalau tahun lalu sudah dapat, tahun ini tidak bisa.’ |
209 | 100.2500 | Menurut dia, banyak hal terkait dengan pembangunan pasar. |
213 | 118.6667 | Karena jalan tersebut adalah jalan Kabupaten. |
220 | 119.1250 | Sementara kondisi ekonomi di dalam negeri cukup baik. |
251 | 92.6250 | "Kami berharap tahun depan bisa lebih besar lagi. |
269 | 78.2500 | Pemerintah tidak ingin hal itu terjadi di Indonesia. |
272 | 96.8889 | Saya akan melihat apa yang akan terjadi ke depan." |
279 | 120.6250 | Saat itu Indonesia hanya berada di posisi empat. |
279 | 120.2727 | Ia tidak berada di satu posisi tapi ada di berbagai posisi. |
287 | 166.8333 | "Saya memang sudah lama ingin menjelaskan. |
298 | 98.8750 | Namun, tahun lalu mencapai Rp 1 miliar," katanya. |
314 | 108.2500 | "Saya tidak punya masalah dengan orang per orang. |
330 | 125.8750 | Dari jumlah tersebut termasuk yang ada di Sulut. |
338 | 105.3333 | “Hal ini sangat penting untuk dilakukan. |
348 | 133.5556 | "Saya telah datang untuk memberikan seluruh yang saya punya. |
356 | 118.8889 | "Saya sudah tahu pemain saya untuk waktu yang lama. |
356 | 134.6667 | Ia mengaku baru tahu dari salah seorang warga tentang hal tersebut ketika berada di lokasi. |
365 | 209.3750 | Mereka sekarang tidak punya suara, tidak punya tempat. |
375 | 202.6364 | "Setelah bulan lalu sempat turun, bulan ini mengalami kenaikan 2 persen. |
376 | 136.4000 | Saat ini pihaknya telah mendapatkan laporan dari salah satu korban. |
378 | 149.7143 | “Kami belum dapat informasi mengenai hal itu. |
387 | 123.8333 | Tapi saya tak bisa menerima jika mereka tak bermain sebagai sebuah tim. |
389 | 84.3636 | Tidak hanya terjadi di Indonesia, tetapi juga terjadi di negara lain. |
389 | 103.3750 | "Tidak ada masalah yang terjadi di antara kami. |
401 | 75.0000 | Padahal, di antara kami tidak ada yang melakukan hal itu. |
402 | 152.5000 | Untuk itu diharapkan seluruh masyarakat untuk mendukung kegiatan ini,” katanya. |
411 | 154.8750 | Hal itu mulai terlihat sejak dua pekan lalu. |
422 | 145.7273 | Bahkan kasus seperti itu sudah berlangsung lama di pusat dan daerah. |
426 | 133.7500 | Untuk membuat kawasan industri, paling tidak ada dua cara yakni dilakukan oleh pemerintah atau pihak lain. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II